Сравнение парадигм использования данных: спектр меток
Успешная реализация моделей машинного обучения в значительной степени зависит от доступности, качества и стоимости размеченных данных. В условиях, когда ручная разметка является дорогостоящей, невозможной или требует высокой квалификации, стандартные подходы становятся неэффективными или полностью терпят неудачу. Мы вводим спектр меток, выделяя три основных подхода в зависимости от того, как они используют информацию:Обучение с учителем (SL), Обучение без учителя (UL), а также Полуобучение (SSL).
1. Обучение с учителем (SL): высокая точность, высокая стоимость
SL работает с наборами данных, где каждый вход $X$ явно сопоставлен с известным истинным значением метки $Y$. Хотя этот подход обычно обеспечивает наивысшую предиктивную точность для задач классификации или регрессии, его зависимость от плотной и качественной разметки требует значительных ресурсов. Производительность резко падает при недостатке размеченных примеров, что делает этот подход хрупким и часто экономически неприемлемым для масштабных, динамично изменяющихся наборов данных.
2. Обучение без учителя (UL): обнаружение скрытых структур
UL работает исключительно с неразмеченными данными, $D = \{X_1, X_2, ..., X_n\}$. Его цель — выявить внутренние структуры, базовые распределения вероятностей, плотности или значимые представления внутри многообразия данных. Ключевые применения включают кластеризацию, обучение многообразию и построение представлений. UL чрезвычайно эффективен для предварительной обработки и извлечения признаков, предоставляя ценные инсайты без зависимости от внешнего человеческого вмешательства.
Дано: $D_L$: Размеченные данные. $D_U$: Неразмеченные данные. $\mathcal{L}_{SL}$: Функция потерь обучения с учителем. $\mathcal{L}_{Consistency}$: Функция потерь, обеспечивающая гладкость прогнозов на $D_U$.
Концептуальная форма общей функции потерь полуобучения представляет собой взвешенную сумму двух компонент: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Скаляр $\lambda$ управляет балансом между точностью меток и использованием структуры данных.